识别视频中的玩家是基于计算机视觉的体育分析的基础步骤。获得播放器标识对于分析游戏至关重要,并且用于游戏事件识别等下游任务。变压器是自然语言处理(NLP)的现有标准,并在计算机视觉中迅速获得牵引力。在计算机愿景中的变压器成功增加的推动,在本文中,我们介绍了一种通过广播国家曲棍球联赛(NHL)视频的泽西号码来识别玩家的变压器网络。变压器将玩家帧的时间序列(也称为播放器轨迹)作为输入,输出帧中存在的泽西号码的概率。所提出的网络比使用数据集上的上一个基准测试更好。我们通过为泽西号码的近似帧级标签产生近似帧级标签来实现弱监督的培训方法,并使用帧级标签以更快的培训。我们还通过使用光学字符识别(OCR)阅读游戏时间来利用NHL游戏数据中提供的玩家换档,以在某种游戏时间内将玩家放在溜冰场上。使用播放器转换将播放器识别精度提高了6%。
translated by 谷歌翻译
在诸如人类姿态估计的关键点估计任务中,尽管具有显着缺点,但基于热线的回归是主要的方法:Heatmaps本质上遭受量化误差,并且需要过多的计算来产生和后处理。有动力寻找更有效的解决方案,我们提出了一种新的热映射无关声点估计方法,其中各个关键点和空间相关的关键点(即,姿势)被建模为基于密集的单级锚的检测框架内的对象。因此,我们将我们的方法Kapao(发音为“KA-Pow!”)对于关键点并作为对象构成。我们通过同时检测人姿势对象和关键点对象并融合检测来利用两个对象表示的强度来将Kapao应用于单阶段多人人类姿势估算问题。在实验中,我们观察到Kapao明显比以前的方法更快,更准确,这极大地来自热爱处理后处理。此外,在不使用测试时间增强时,精度速度折衷特别有利。我们的大型型号Kapao-L在Microsoft Coco Keypoints验证集上实现了70.6的AP,而无需测试时增强,其比下一个最佳单级模型更准确,4.0 AP更准确。此外,Kapao在重闭塞的存在下擅长。在繁荣试验套上,Kapao-L为一个单级方法实现新的最先进的准确性,AP为68.9。
translated by 谷歌翻译
跟踪和识别玩家是基于计算机视觉冰球分析的基本步骤。跟踪生成的数据用于许多其他下游任务,例如游戏事件检测和游戏策略分析。播放器跟踪和识别是一个具有挑战性的问题,因为与行人相比,曲棍球运动员的运动是快节奏和非线性的。还有显着的摄像头淘气和放大曲棍球广播视频。识别冰球中的玩家是挑战,因为同一团队的球员几乎相同,泽西号码是玩家之间唯一的鉴别因素。本文介绍了一种用于跟踪和识别广播NHL曲棍球视频中的玩家的自动化系统。该系统由三个组件(1)播放器跟踪组成,(2)团队识别和(3)播放器识别。由于没有公开可用的数据集,用于培训三个组件的数据集手动注释。利用艺术跟踪算法的状态来执行播放器跟踪,从而获得多目标跟踪精度(MOTA)得分为94.5%。对于团队识别,Away-Team Jerseys被分组为单一课程,并根据他们的泽西颜色在课堂上分组。然后在团队识别数据集上培训卷积神经网络。团队识别网络在测试集中获得97%的准确性。引入了一种新颖的播放器识别模型,其利用时间一维卷积网络来识别来自玩家边界框序列的玩家。播放器识别模型进一步利用了可用的NHL游戏名册数据,以获得83%的玩家识别精度。
translated by 谷歌翻译
Due to the unequivocal need for understanding the decision processes of deep learning networks, both modal-dependent and model-agnostic techniques have become very popular. Although both of these ideas provide transparency for automated decision making, most methodologies focus on either using the modal-gradients (model-dependent) or ignoring the model internal states and reasoning with a model's behavior/outcome (model-agnostic) to instances. In this work, we propose a unified explanation approach that given an instance combines both model-dependent and agnostic explanations to produce an explanation set. The generated explanations are not only consistent in the neighborhood of a sample but can highlight causal relationships between image content and the outcome. We use Wireless Capsule Endoscopy (WCE) domain to illustrate the effectiveness of our explanations. The saliency maps generated by our approach are comparable or better on the softmax information score.
translated by 谷歌翻译
The 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023 focused on maritime computer vision for Unmanned Aerial Vehicles (UAV) and Unmanned Surface Vehicle (USV), and organized several subchallenges in this domain: (i) UAV-based Maritime Object Detection, (ii) UAV-based Maritime Object Tracking, (iii) USV-based Maritime Obstacle Segmentation and (iv) USV-based Maritime Obstacle Detection. The subchallenges were based on the SeaDronesSee and MODS benchmarks. This report summarizes the main findings of the individual subchallenges and introduces a new benchmark, called SeaDronesSee Object Detection v2, which extends the previous benchmark by including more classes and footage. We provide statistical and qualitative analyses, and assess trends in the best-performing methodologies of over 130 submissions. The methods are summarized in the appendix. The datasets, evaluation code and the leaderboard are publicly available at https://seadronessee.cs.uni-tuebingen.de/macvi.
translated by 谷歌翻译
Climate change is becoming one of the greatest challenges to the sustainable development of modern society. Renewable energies with low density greatly complicate the online optimization and control processes, where modern advanced computational technologies, specifically quantum computing, have significant potential to help. In this paper, we discuss applications of quantum computing algorithms toward state-of-the-art smart grid problems. We suggest potential, exponential quantum speedup by the use of the Harrow-Hassidim-Lloyd (HHL) algorithms for sparse matrix inversions in power-flow problems. However, practical implementations of the algorithm are limited by the noise of quantum circuits, the hardness of realizations of quantum random access memories (QRAM), and the depth of the required quantum circuits. We benchmark the hardware and software requirements from the state-of-the-art power-flow algorithms, including QRAM requirements from hybrid phonon-transmon systems, and explicit gate counting used in HHL for explicit realizations. We also develop near-term algorithms of power flow by variational quantum circuits and implement real experiments for 6 qubits with a truncated version of power flows.
translated by 谷歌翻译
在现实世界条件下运行的原因是由于部分可观察性引起的广泛故障而具有挑战性。在相对良性的环境中,可以通过重试或执行少量手工恢复策略之一来克服这种失败。相比之下,诸如打开门和组装家具之类的接触式连续操作任务不适合详尽的手工设计。为了解决这个问题,我们提出了一种以样本效率的方式来鲁棒化操作策略的一般方法。我们的方法通过在模拟中探索发现当前策略的故障模式,从而提高了鲁棒性,然后学习其他恢复技能来处理这些失败。为了确保有效的学习,我们提出了一种在线算法值上限限制(值UCL),该算法选择要优先级的故障模式以及要恢复到哪种状态,以使预期的性能在每个培训情节中最大程度地提高。我们使用我们的方法来学习开门的恢复技能,并在模拟和实际机器人中对其进行评估。与开环执行相比,我们的实验表明,即使是有限的恢复学习也可以从模拟中的71 \%提高到92.4 \%,从75 \%到90 \%的实际机器人。
translated by 谷歌翻译
深度学习方法缺乏无线胶囊内窥镜检查(WCE)自动诊断的可普遍性,这阻止了任何显着优势降低到真实的临床实践。结果,使用WCE的疾病管理继续依赖医学专家的详尽手动调查。尽管有几个优势,但这解释了其有限的用途。先前的工作已经考虑使用更高质量和数量的标签作为解决缺乏概括的一种方式,但是考虑到病理多样性,这几乎是无法扩展的,更不用说标记大型数据集的标签还会支持医务人员。我们建议使用免费可用的域知识作为先验,以学习更多可靠和可推广的表示。我们通过实验表明,领域先验可以通过在标签的代理中作用来使表示形式受益,从而大大减少了标签要求,同时仍可以完全无监督而又感知的学习。我们在预处理过程中使用对比度目标以及先前的指导观点,在此观点选择激发了对病理信息的敏感性。在三个数据集上进行的广泛实验表明,我们的方法的性能要比(或与)域中的最新技术更好,在病理分类和跨数据库概括方面建立了新的基准,并扩展到不看病的病理学类别。
translated by 谷歌翻译
我们考虑使用最低限度的努力与人类机器人团队一起完成一组$ n $任务的问题。在许多领域中,如果有许多任务有限的任务,教机器人完全自主可能会适得其反。相反,最佳策略是权衡教授机器人及其好处的成本 - 它允许机器人自动解决多少新任务。我们将其作为规划问题提出,目的是确定机器人应自动执行的任务(ACT),应将哪些任务委派给人类(委托)以及应教授机器人的哪些任务(学习)以完成所有给定的任务都以最小的努力。这个计划问题导致搜索树以$ n $成倍增长 - 使标准图形搜索算法难以理解。我们通过将问题转换为混合整数程序来解决这个问题,该程序可以使用固定求解器有效地解决解决方案质量的范围。为了预测学习的好处,我们提出了一个先进的预测分类器。给定两个任务,该分类器预测接受培训的技能是否会转移到另一个。最后,我们在模拟和现实世界中评估了有关PEG插入和乐高堆叠任务的方法,显示了人类努力的大量节省。
translated by 谷歌翻译
这项工作提出了一个基于注意力的序列到序列模型,用于手写单词识别,并探讨了用于HTR系统数据有效培训的转移学习。为了克服培训数据稀缺性,这项工作利用了在场景文本图像上预先训练的模型,作为调整手写识别模型的起点。Resnet特征提取和基于双向LSTM的序列建模阶段一起形成编码器。预测阶段由解码器和基于内容的注意机制组成。拟议的端到端HTR系统的有效性已在新型的多作用数据集IMGUR5K和IAM数据集上进行了经验评估。实验结果评估了HTR框架的性能,并通过对误差案例的深入分析进一步支持。源代码和预培训模型可在https://github.com/dmitrijsk/attentionhtr上找到。
translated by 谷歌翻译